2004 QJE 文献总结:双重差分的可信度,从统计推断说起 (2)
此文章总结2004年发表在QJE上关于双重差分推断的文献,链接如下 Marianne Bertrand, Esther Duflo, Sendhil Mullainathan, How Much Should We Trust Differences-In-Differences Estimates? The Quarterly Journal of Economics, Volume 119, Issue 1, February 2004, Pages 249–275, https://doi.org/10.1162/003355304772839588.
上篇文章,我们讨论了双重差分统计推断的问题。这篇文章,我们讨论可能的解决措施。
1. 概览
2. 详述
2.1. 参数方法 (Parametric Methods)
一句话总结,参数方法要人为预先假设参数方程,假设错误以及时间序列比较短,都会极大程度影响推断的效果。实证显示这个方法并不好用。
首先作者用参数方法试图解决由序列相关性所带来的双重差分的错误推断。TABLE IV 总结了用参数方法调整过的双重差分推断情况,可以看出这个方法并不好用。
参数方法即为人为假设误差项(error term)的序列相关方程式,估计出序列相关的参数,并且用这些估计的参数计算标准误(standard errors)。TABLE IV 第二行,作者假设一阶自相关性 AR(1),并且回归残差和残差一阶滞后项(regress the residual on its lag),得到方差协方差块矩阵 (block-diagonal variance-covariance matrix) 的估计值。这个方法并不好用,因为拒绝原假设率仍然高达24%。 这个方法不好用:一部分是由于当时间序列比较短时,OLS的一阶自相关性估计会偏低(bias down),这个我们从TABLE IV 第五行也可以看出来;还有一部分原因在于我们的方程式假设可能出现了问题,比如我们看TABLE IV第七和第八行,如果我们假设自相关性不是AR(1), 可我们却用AR (1) 估计,那么拒绝原假设率会高达44.4%和30.1%。
文章最后也提到,如果州的数量比较多,我们可以灵活根据州的数据估计自相关性,并且设置合理的参数方程,这时候参数估计的方法也可以行得通。但如果州的数量不够多,参数估计的方法也不行。
2.2. 块抽样 (Block Bootstrap)
一句话总结,块抽样得出t值分布,当州的数量足够多时,这个方法可以解决问题,但是比较麻烦,实证中应用也不算很广。
原文操作步骤如下:
具体来说,实证中,我们如何对t值做块抽样呢?1)我们用OLS的方法估计出系数beta_hat和标准误,计算出t值, t = abs(beta_hat)/se(beta_hat)。 2)我们重置抽样(sampling with replacement)50个矩阵(Y_s, V_s)建立一个块抽样的样本,Y_s 是州s的所有时间序列的结果变量,V_s 是州虚拟变量(state dummy),时间虚拟变量(time dummy) 和s州的实验组虚拟变量(treatment dummy for state s)。3)我们对上步建立的样本中进行OLS回归,并且得到估计值beta_r_hat,并计算出t值,t_r = abs(beta_r_hat - beta_hat)/se(beta_r_hat)。当州的数量N越大时,t值分布和抽样样本计算出的t值分布差异变小,即使州内存在自相关和异质性,统计推断也没什么误差。结果显示,这种方法很棒。然而在实证中,因为操作比较麻烦,大家也不怎么用它。TABLE V 显示块抽样的推断效果。
2.3. 简单粗暴二元法,意想不到好效果
最简单粗暴的方法便是,collapse!忽略冗长的时间序列信息,仅需要将政策实施前和实施后的数据做平均,假装数据本身只有两个时期的观察值,再进行双重差分的推断。如果政策在不同州实施的时间不同,可以通过OLS用结果变量回归州,时间等各种虚拟变量和协变量后得到残差,并将残差分为两大类:政策实施前年份的残差和政策实施后年份的残差,而后进行双重差分的推断。
TABLE VI 显示,这种方法简单粗暴却卓有成效,但是缺点是数据的功效(statistical power)不够大,当样本量小时,尤其不行。